Análise de dados - ENEM 2019

Por: RODRIGO SOUZA

Meu Linkedin: https://www.linkedin.com/in/ssrodrigo

Introdução

O que irei encontrar por aqui?

Desde uma análise mais geral, até uma análise mais minuciosa sobre o ENEM 2019 você irá encontrar aqui!

Gráficos, scripts e relatórios sobre as minhas conclusões como Atuário e Cientista de Dados, estarão disponíveis nas diversas seções. Procurei explorar ao máximo correlações e indicadores que possam elucidar algum tipo de comportamento nas notas e nos candidatos do ENEM de 2019. Utilizei uma amostra considerável, disponibilizada pela Alura.

Resumo sobre as seções

Atenção : execute os scripts de acordo com a ordem das seções acima para que não haja conflitos.

Bibliotecas utilizadas

Bibliotecas

Carregando os dados

Primordialmente, os dados foram carregados corretamente, contendo 136 variáveis para serem analisadas, cada uma com um fim e uma possível correlação com outra.

Análise Geral


Para esta ocasião, estarei observando o dataset como um todo. Irei verificar a distribuição das idades, o que significa os valores NaN.

Distribuição das idades

A idade do candidado pode ser explorada pela variável NU_IDADE, portanto, criarei gráficos e dataframes baseados nela.

A idade com maior frequência nos dados da amostra foi de candidatos com 18 anos.

A partir do grafico acima, é visível que a concentração de dados está por volta dos candidatos entre 17 e 25 anos. Ressalto que o mesmo gráfico se assemelha a uma Distribuição de Poisson.

A média de idade, na amostra, é de aproximadamente 22 anos. Entretanto, a mediana é de 19 anos. É possível visualizar que, apesar da idade máxima ser 82 anos, o terceiro quartil está em 24 anos de idade, sendo assim, ao menos 75% dos candidados tinham 24 anos ou menos. Conclui-se, também, que as idades NÃO estão normalmente distribuídas.

Encontrando a média de idade por município

Importarei um dataset que analisa a longitude e latidude de cada município a fim de gerar um gráfico cartográfico

No gráfico acima, visualiza-se que a região mais escura (de acordo com a escala) tende à região Sul/Sudeste. Em contrapartida, o nordeste se apresenta levemente com uma cor mais clara. Isso ressalta que, as regiões mais ao Sul do país apresentam idades mais novas em candidatos no ENEM 2019.

Levanto a hipótese de uma possível política de incentivo maior às crianças e aos secundaristas.

Qual estado predomina com candidatos mais novos?

O Estado com candidatos mais jovens foi o de São Paulo. Em sequência, segue o estado de Minas Gerais. Esse atributo pode reforçar o mapa anterior proposto, demonstrando o escurecimento na região Sudeste e Sul.

Qual a idade mais alta que participou no enem do 2019?

Esta pergunta pode ser respondida pela seguinte análise:

O candidato mais idoso da amostra tinha 82 anos e residia em Niterói.

Qual a idade mais baixa que participou no enem do 2019?

Os candidados mais novos da amostra continham 13 anos de idade e residiam em três estados diferentes: São Paulo, Mato Grosso, Amapá e Bahia.

O que significam os valores NaN nas notas do candidato no dataset?

De fato, todo e qualquer dataset está submetivo à conter valores faltantes. Será que o dataset da amostra obtém dados faltantes?

É possível visualizar que, há valores faltantes apenas pela aparição do True no dataset acima. Por que eles aparecem?

A partir da tabela acima, com o índice igual a 1, é possível relacionar com as faltas dos candidatos nos dias das provas que correspondem aos valores NaN.

A desigualdade de sexos no ENEM 2019


O sexo declarado pelo candidado pode ser explorado pela variável TP_SEXO, portanto, criarei gráficos e dataframes baseados nela.

É nítido que, aproximadamente 60% dos candidatos da amostra do ENEM 2019 são do sexo Feminino.

Percebe-se que, a grande maioria dos municípios possui maior participação de pessoas com sexo feminino do que sexo masculino

Então, as mulheres tiram as maiores notas? Veremos se ainda há desigualdade

Quem tirou acima de 600 em todas as provas, é de qual sexo?

Essa pergunta pode ser respondida pela filtração dos candidados com notas maiores que 600 e, consequentemente, realizando a frequência de cada sexo.

Apesar da maior quantidade de candidatos do sexo feminino, percebe-se que há um leve equilíbrio de sexo entre os candidatos com notas maiores que 600, com um ganho do sexo masculino em 51,3%.

Quem tirou acima de 600 em todas as provas, é de onde?

No gráfico acima, é possível visualizar que, os alunos que tiraram notas maiores que 600 em todas as provas residem, em sua maioria, no estado de São Paulo e posteriormente o estado de Minas Gerais (Os dois estados mais populosos do Brasil segundo o IBGE)

Distribuição das notas por sexo

Utilizarei boxplot. Deixo um breve resumo sobre o que ele é:

Fonte: https://dev.to/giselyalves13/visualizacao-de-dados-com-seaborn-2892

Há um leve deslocamento das notas de quem é do sexo masculino para a direita. Essa diferença é significativa?

Há diferença significativa nas notas das áreas para cada sexo? Testes estatísticos: ANOVA

Análise de variância é a técnica estatística que permite avaliar afirmações sobre as médias de populações. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.

Fonte: https://pt.wikipedia.org/wiki/An%C3%A1lise_de_vari%C3%A2ncia

Para essa ocasião, estarei criando um modelo de ANOVA para realizar o teste se há diferença significativa entre os sexos. Para identificar, basta que o PR(>F) seja menor que 0,05 (nível de confiança para 95%) para contestar que há. (Hipótese Nula: Não há diferença significativa entre os grupos).

Matemática

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de matemática. (afirmando o argumento da seção acima)

Ciências da Natureza

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências da natureza. (afirmando o argumento da seção acima)

Linguagens e Códigos

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de linguagens e códigos. (afirmando o argumento da seção acima)

Ciências Humanas

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências humanas. (afirmando o argumento da seção acima)

Como o Feminismo pode ajudar as mulheres na prova do ENEM

Irei ressaltar o levantamento de movimentos sociais e linguísticos, como o Feminismo. No Brasil, após a Ditadura Militar, no início do Século 21, os movimentos sociais de inclusão ganharam cada vez mais força, principalmente no desenvolver da globalização e a criação de políticas inclusivas pelo próprio Governo Federal. Garantir acessibilidade para grupos distintos, em que HÁ SIM DESIGUALDADE, pode refletir até no desempenho educacional. A luta deve ser escutada para que esses resultados não sejam discrepantes como são.

A desigualdade de cor das Raças no ENEM2019


A cor da raça declarada pelo candidado pode ser explorada pela variável TP_COR_RACA, portanto, criarei gráficos e dataframes baseados nela.

Criando um dicionário para variável

Separando as colunas para análise

Gerando uma coluna com as respostas

Ordenando as cores das raças em uma lista

Plotando um gráfico com a Distribuição da Cor de Raça no ENEM2019

É visível que, a maioria dos candidatos são Pardos e, posteriormente, se encontra os candidatos Brancos.

De acordo com dados da Pesquisa Nacional por Amostra de Domicílios (PNAD) 2019, 42,7% dos brasileiros se declararam como brancos, 46,8% como pardos, 9,4% como pretos e 1,1% como amarelos ou indígenas. (https://educa.ibge.gov.br/jovens/conheca-o-brasil/populacao/18319-cor-ou-raca.html#:~:text=De%20acordo%20com%20dados%20da,1%25%20como%20amarelos%20ou%20ind%C3%ADgenas.)

De acordo com essa referência, é possível relacionar com a própria maioria da população brasileira os dados obtidos.

Quem tira as maiores notas, são de que cor de raça? Há desigualdade?

Apesar da maioria dos candidatos serem pardos, a maioria das notas (maior que 600) são compostas pela cor Branca com 63,7%

Observe no gráfico acima que, apesar da maioria da população dos candidatos serem pardos, mais da metade das notas maiores são compostas pela cor Branca. Esse fato pode ser de acordo com o índice de que, a taxa de analfabetismo de Pretos e Pardos acima de 15 anos é mais que duas vezes maios da que dos Brancos, de acordo com o IBGE (Disponível em: https://cidades.ibge.gov.br/brasil/pesquisa/10091/82292. Acesso em: 23 out. 2020.)

Vale ressaltar que, praticamente 0% dos indígenas tiram notas maiores que 600 em todas as provas

Distribuiçao das notas em cada área por raça ENEM2019

As notas de brancos são consideravelmente maiores em relação às outras cores de raças. O efeito pode ser visto pelas medianas mais deslocadas a direita nos boxplots. Mais alguns gráficos que demonstram a desigualdade social na sociedade brasileira e a falta de democratização no acesso à uma educação de qualidade.

Há diferença significativa nas notas das áreas para cada cor? Testes estatísticos: ANOVA, TUKEY

Análise de variância é a técnica estatística que permite avaliar afirmações sobre as médias de populações. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.

Fonte: https://pt.wikipedia.org/wiki/An%C3%A1lise_de_vari%C3%A2ncia

Para essa ocasião, estarei criando um modelo de ANOVA para realizar o teste se há diferença significativa entre as raças. Para identificar, basta que o PR(>F) seja menor que 0,05 (nível de confiança para 95%) para contestar que há. (Hipótese Nula: Não há diferença significativa entre os grupos).

Matemática

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de matemática. (afirmando o argumento da seção acima)

É possível visualizar que, em todos os casos de comparação entre grupos, todos rejeitam a hipótese nula (última coluna) onde há sim diferença significativa entre os grupos.

Todos os grupos ocupam posições distintas, demonstrando a limitação de desempenho para cada raça (Em matemática).

Ciências da Natureza

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências da natureza. (afirmando o argumento da seção acima)

É possível visualizar que, em todos os casos de comparação entre grupos, todos rejeitam a hipótese nula (última coluna) onde há sim diferença significativa entre os grupos.

Todos os grupos ocupam posições distintas, demonstrando a limitação de desempenho para cada raça (Em ciências da natureza).

Linguagens e Códigos

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de linguagens e códigos. (afirmando o argumento da seção acima)

Partimos agora de uma situação diferente. De fato, a maioria das cores se apresentam em uma diferença significativa, entretanto, as duas últimas da tabela não apresentaram diferença significativa. Entre pretos e pardos, não há diferença significativa. Por quê?

A minha hipótese é de que, apesar de possivelmente houver alguma diferença, o próprio IBGE em sua pesquisa de desigualdade social no Brasil considera Pretos e Pardos na mesma categoria. Essa situação pode sugerir um desempenho parecido entre as duas. (Disponível em: https://cidades.ibge.gov.br/brasil/pesquisa/10091/82292)

De fato, é possível observar que há uma aproximação das cores Preta e Parda nos gráficos. Já as outras, há uma disparidade exorbitante.

Ciências Humanas

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências humanas. (afirmando o argumento da seção acima)

Observe a mesma situação de linguagens e códigos, onde há uma disparidade entre as outras raças, mas entre pardos e pretos não. De fato, é um efeito importante

É possível observar que há uma aproximação das cores Preta e Parda nos gráficos. Já as outras, há uma disparidade exorbitante.

Média de notas para cada área no Brasil (Mapas)


Nesta seção irei realizar gráficos de mapas para analisar as médias para cada área da prova do ENEM 2019 em cada município disponível na amostra. Para isso utilizarei o dataframe já importado como nome de: coordenadas.

Utilizarei esse dataset para concatenar os valores das coordenadas a fim de elucidar um mapa de acordo com a média das notas em cada área para cada município, conforme as seções a seguir.

Matemática

Pelo gráfico acima, é possível visualizar um clareamento na tonalidade das cores ao tender no Sul/Sudeste. O efeito contrátio acontece ao se direcionar para o Norte/Nordeste. Esse gráfico pode demonstrar a ainda presente desigualdade social presente no Brasil, como também um alto deficit na educação dita a disparidade de notas. É visível, também, que o Brasil de um modo geral NÃO desempenhou bem na área de Matemática.

Ciências da Natureza

Novamente, o mesmo efeito ocorre com a área de Ciências da Natureza, onde há uma forte sobreposição do Sudeste e do Sul sob as outras regiões. Mais um ponto de desigualdade social. Com isso, é fato e claro onde há uma necessidade de investimento nessas áreas.

Ciências da Natureza agrega Física, Química e Biologia. Uma proposta, levantando a minha hipótese, seria levantar investimentos em laboratórios em escolas, com também propor experiências de campo para os dicentes a fim de estimular um contato maior com essa área.

Ciências Humanas

Apesar dos gráficos anteriores demonstrar uma maior disparidade entre as notas das áreas, em Ciências Humanas os alunos em geral desempenharam melhor. Entretanto, é possível visualizar, ainda, um pequeno nuance na tonalidade das notas em comparação Sul/Sudeste - Norte/Nordeste.

Linguagens e Códigos

Como já visto anteriormente, estou eliminando os valores NaN pois estou considerando-os como a não presença no dia da prova.

A dose se repete. Novamente o Brasil de um modo geral se apresenta em um desempenho razoável, entretanto, com predominância da região ao Sul (verde mais forte.

Redação

Como já visto anteriormente, estou eliminando os valores NaN pois estou considerando-os como a não presença no dia da prova.

Um pouco diferente dos gráficos anteriores, a região Sudeste foi a que mais se destacou nos gráficos. Novamente, a prevalencia das notas menores se dá no Norte e Nordeste.

O comportamento das notas no Estado de São Paulo de acordo com o IDH


A fim de analisar o estado em que resido, importarei os dados referente ao próprio estado para cada município a fim de coletar algumas informações. Os dados foram obtidos do próprio site do IBGE.

Referência: https://www.ibge.gov.br/cidades-e-estados/sp/sao-paulo.html

Importando os dados

Gerando a média por município (SP)

Plotando os gráficos de dispersão

Visualmente os dados se dispersam muito em relação ao IDH do município.

Os valores acima são interpretados pela seguinte proposta:

Fonte: http://leg.ufpr.br/~silvia/CE003/node74.html

De fato, há uma fraca relação entre o IDH e as provas. As que mais se destacaram pela relação foi a de Ciências da Natureza e de Ciências Humanas. Apesar de haver uma correlação fraca (não se é esperada uma correlação forte, dito que é apenas um evento de muitos) o IDH tem sim sua influência nas notas do ENEM.

Esse fator é visível a partir dos gráficos, onde há uma mínima inclinação positiva da esquerda para direita, em que quanto maior o IDH maior serão as notas.

Como que a escolaridade dos pais influencia nas notas?


Nesta ocasião, estarei analisando a relação entre a escolaridade dos pais dos candidados e seu desempenho nas provas. Para isso, utilizarei as variáveis Q001 e Q002

Q001 Até que série seu pai, ou o homem responsável por você, estudou?

Q002 Até que série sua mãe, ou a mulher responsável por você, estudou?

Criando um dicionário com as respostas para as questões e criando uma coluna para elucidar a resposta

Analisando a distribuição das respostas referente ao Pai

Analisando a distribuição das respostas referente à Mãe

É possível visualizar, nas tabelas acima, que a questão respondida por "Não Sei." no caso do pai é de 11002 e no caso da mãe é de 3666. Levanto a hipótese de uma possível evasão dos pais nas famílias, sendo mais presente a mãe.

Como uma política histórica influencia na nota do seu filho

Como é a distribuição de escolaridade a nível de Pós-graduação do pai e da mãe pelo país?

Majoritariamente o Estado de São Paulo ocupa a primeira posição, em segundo o estado de Minas Gerais. Portanto, os Estados do sudeste apresentam uma representatividade maior no páis conquanto aos pais com uma escolaridade mais desenvolvida. Esse fator pode ser histórico. É possível relacionar, tanto pela população maior, quanto pela política Café com Leite executada na República Velha, onde os Estados de Minas Gerais e São Paulo foram predominantes no período ante 1930. Diante disso, com a riqueza, é possível relacionar um possível cunho histórico, tanto de desenvolvimento econômico, quanto de incentivo educacional e social.

Como é o comportamento da escolaridade nas notas maiores?

É nítido que, quanto mais desenvolvida a escolaridade dos pais, melhor é o desempenho de seus filhos.

HIPÓTESE:Além da maior presença da mãe nas famílias, a escolaridade da mãe quanto mais desenvolvida (tende à pós-gradruação) é, maior é a chance do filho tirar notas maiores que 600. Em contrapartida, a escolaridade do pai se encontra em proporções mais suaves quanto ao desenvolvimento. Portanto, a influência maior é com respeito à escolaridade da própria mãe.

É importante ressaltar que, apesar da influência mais significativa ser pela pós-graduação, apenas 7,9% das mães possuem pós-graduação completa.

Como é a distribuição das notas com candidatos que tem mãe com pós completa?

Comparando com a distribuição das mães que não possuem pós

Dado o exposto das tabelas e dos gráficos, é visível que, as médias dos alunos com mãe com pós completa são maiores daqueles que não tem. É importante ressaltar que, as notas deles também são mais próximas de uma distribuição normal, comparando os histogramas (analisando a simetria dos gráficos para cada área). Um ponto importante a se ressaltar é que, na área de Ciências da Natureza nenhum aluno com mãe com pós tirou zero, diferente daqueles que não tem que houve nota zero (além se assemelhar com uma distribuição de poisson).

Visualização Geral das notas por Escolaridade da mãe

Com os gráficos acima, é possível constatar o efeito da escolaridade das mães no desempenho de seus filhos. A distribuição das notas dos filhos de quem tem pós-completa é mais deslocada para direita (nota maior) do que as de quem Nunca Estudou (contém as menores notas).

Há diferença significativa nas notas das áreas para a escolaridade da mãe? Testes estatísticos: ANOVA, TUKEY

Análise de variância é a técnica estatística que permite avaliar afirmações sobre as médias de populações. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.

Fonte: https://pt.wikipedia.org/wiki/An%C3%A1lise_de_vari%C3%A2ncia

Para essa ocasião, estarei criando um modelo de ANOVA para realizar o teste se há diferença significativa entre as escolaridades das mães. Para identificar, basta que o PR(>F) seja menor que 0,05 (nível de confiança para 95%) para contestar que há. (Hipótese Nula: Não há diferença significativa entre os grupos).

Irei utilizar as respostas pelas alternativas, a fim de tornar a visualização das tabelas mais clara. Portanto, estou deixando aqui o que significa cada resposta:

A: 'Nunca estudou.'

B: 'Não completou a 4ª série/5º ano do Ensino Fundamental.',

C:'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.',

D: 'Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.',

E:'Completou o Ensino Médio, mas não completou a Faculdade.',

F: 'Completou a Faculdade, mas não completou a Pós-graduação.',

G:'Completou a Pós-graduação.',

H: 'Não sei.'

Matemática

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de matemática. (afirmando o argumento da seção acima)

É nítido que há uma diferença significativa entre todas as escolaridades. Ademais, é possível ressaltar que NÃO HÁ DIFERENÇA SIGNIFICATIVA entre as mães que Não completou a 4ª série/5º ano do Ensino Fundamental e as que os candidatos Não sabem.

Ciências da Natureza

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências da natureza. (afirmando o argumento da seção acima)

Novamente, a dose anterior se repete. Não há diferença entre a categoria B e H.

Linguagens e Códigos

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de linguagens e códigos. (afirmando o argumento da seção acima)

Novamente, o efeito se repete.

Ciências Humanas

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências humanas. (afirmando o argumento da seção acima)

De fato, EM TODAS AS ÁREAS, todas as escolaridades fazem diferença entre elas, menos entre a categoria B e H.

Conclusão escolaridade mãe

De fato, a mãe ter uma escolaridade mais desenvolvida faz diferença, entretanto, não faz diferença se a mãe tem escolaridade que o filho não sabe ou que Não completou a 4ª série/5º ano do Ensino Fundamental.

O comportamento das notas em Ciências Humanas de candidato com mãe certificada com pós-graduação completa

É perceptível uma possível simetria e coerência no boxplot gerado com as notas de Ciências Humanas. Irei plotar um histograma com os mesmos dados.

Instigado com o formato de sino, decidi verificar a partir de um teste de hipótese para verificar se os dados estão normalmente distribuídos.

Teste de Shapiro-Wilk

A fim de que uma distribuição seja normal, neste teste de hipótese o p-value deve ser maior que 0,05

Eliminando os valores NaN

Gerando uma amostra aleatória, a fim de diminuir o dataset (a função shapiro se limita a 5000 instâncias)

Utilizando a função shapiro do módulo stats do pacore scipy

O valor p-value, por consequência, declara que os valores das notas não estão efetivamente normalmente distribuidos. Entretanto, o formato de sino, a aproximação da média para mediana nos deduz uma tendência à normalização, diferente do formato dos candidatos que a mãe não possui pós completa, onde há uma distorção maior.

A lingua estrangeira escolhida influencia de que modo no desempenho?


Na prova do ENEM é possível escolher duas línguas para realizar na prova de Linguagens e Códigos. São elas: inglês e espanhol. Nos dados da amostra, é possível identificar a escolha através da variável TP_LÍNGUA, sendo: 0 inglês e 1 espanhol.

Visualização a partir de gráficos

Inglês

De onde são as pessoas que escolheram inglês?

Há uma concentração exorbitante do Sudeste.

Análise descritiva

Espanhol

Visualização a partir de gráficos

De onde que são os candidatos que esolheram espanhol?

Os dados estão bem mais distribuídos por estado, tendo maior participação da região norte/nordeste em relação ao inglês.

Análise descritiva

IMPORTANTE: A média e a mediana de Ciências Humanas estão bem próximas.

Há diferença significativa nas notas das áreas para cada língua estrangeira? Testes estatísticos: ANOVA

Análise de variância é a técnica estatística que permite avaliar afirmações sobre as médias de populações. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.

Fonte: https://pt.wikipedia.org/wiki/An%C3%A1lise_de_vari%C3%A2ncia

Para essa ocasião, estarei criando um modelo de ANOVA para realizar o teste se há diferença significativa entre as línguas escolhidas. Para identificar, basta que o PR(>F) seja menor que 0,05 (nível de confiança para 95%) para contestar que há. (Hipótese Nula: Não há diferença significativa entre os grupos).

Matemática

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de matemática. (afirmando o argumento da seção acima)

Ciências da Natureza

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências da natureza. (afirmando o argumento da seção acima)

Linguagens e Códigos

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de linguagens e códigos. (afirmando o argumento da seção acima)

Ciências Humanas

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências humanas. (afirmando o argumento da seção acima)

Conclusão Língua estrangeira

De fato, o desempenho de quem escolheu a língua inglesa foi consideravelmente melhor e maior daqueles que escolheram espanhol. A distribuição da amostra está equivalente, com aproximadamente 46 mil para cada um. Vale ressaltar que, aqueles que escolheram a lingua ingles desempenharam de uma forma mais harmônica e normal (de acordo com os histogramas) em matemática e ciências da natureza.

Esse efeito pode ser causado pela segregação social. De acordo com o levantamento feito pela British Council, apenas 5% da população brasileira fala inglês (Diponível em: https://www.britishcouncil.org.br/sites/default/files/demandas_de_aprendizagempesquisacompleta.pdf. Acesso em: 22 out. 2020.). Há uma considerável desigualdade nesse quesito.

Interpreto que, pela semelhança léxica e sintática que o espanhol tem com o português atrai os candidatos que não tem familiaridade com o inglês para selecionar a mesma como opção. Esse ato separa, de forma clara, os candidatos de maiores dificuldades daqueles que possuem menos.

Aprender inglês exige, tanto um custo físico, quanto, pela maioria, um custo financeiro. Ter acesso á essas informações, acesso ao material é um cenário totalmente utópico para maioria dos Brasileiros. Portanto, é uma situação astronomicamente alarmante conquanto aos investimentos na língua inglesa, a fim de democratizar o acesso a mesma, com foco nas regiões norte/nordeste (dito que estão em menor aparição daqueles que escolheram inglês).

Taxa de evasão do primeiro para o segundo dia


Será que todos os candidatos que foram no primeiro dia, também foram no segundo dia? Se não, qual fator impediu os mesmo?

Para identificar o primeiro e o segundo dia, basta uma pesquisa rápida. No primeiro dia caríam as provas de: Linguagens e Códigos, Ciências Humanas e Redação, sendo as demais no segundo dia. (Disponível em: https://g1.globo.com/educacao/enem/2019/noticia/2019/10/29/enem-2019-datas-e-horarios-das-provas.ghtml. Acesso em: 22 out. 2020.)

Eu, Matheus Leite Llorente, participei do ENEM 2019 e constato a afirmação acima.

Constatanto que, os valores NaN significam que o candidato não compareceu no dia.

De toda a amostra, aproximadamente 4,3% dos candidatos foram no primeiro dia e não foram no segundo dia.

Como foram as notas do primeiro dia deles?

Análise descritiva

E como foram as notas do primeiro dia de quem foi para o segundo dia?

Análise descritiva

É fato que, além das médias das notas serem consideravelmente menores, os alunos que zeraram a redação no primeiro dia foi exorbitantemente representativo. 17% dos candidatos que não foram para o segundo dia tiraram 0 na redação.

Leva-se em conta que, o terceito quartil de quem não foi para o segundo dia é de 580, enquanto de quem foi é de 680. Sendo assim, é possível levar em consideração que, a própria redação é um fator para evasão dos candidatos.

Por quais motivos as pessoas que não foram no primeiro dia, foram mal na redação?

É possível analisar a variável TP_STATUS_REDACAO, que dita uma descrição das redações avaliadas.

Aparentemente, a maioria das redações estavam sem problemas, seguido de provas em branco. De fato, a redação pode impulsionar uma possível desmotivação nos candidados, sendo que a maior parte zerou e aparentava estar sem problemas.

Quantos candidatos fizeram a prova em um município diferente do que reside? Isso influencia na evasão?

A localidade da prova pode ser um fator que compromota a ida dos candidatos até o local da prova. Irei analisar quantos candidatos fizeram a prova em local diferente do município (geral).

E os candidatos que não foram para o segundo dia? Quantos moravam em município diferente do que fez a prova?

Morar em um município e realizar a prova em outro pode sim influenciar na evasão dos alunos do primeiro para o segundo dia. Dentre vários fatores, podemos análisar alguns, como o transporte particular.

Não ter transporte particular pode influenciar na evasão?

Depender do transporte público, principalmente em casos de alogmeração em um local, pode ser uma situação caótica. Vamos analisar quantos candidatos, no geral, não tinham transporte particular.

Para isso, utilizarei as questões 10 e 11 das pesquisas:

Q010 Na sua residência tem carro?

Q011 Na sua residência tem motocicleta?

Criando um dicionário para as respostas

Analisando a partir de gráficos

Percebe-se que, a maioria esmagadora dos candidatos do ENEM2019 NÃO possuíam algum tipo de transporte particular (Moto ou Carro).

Não ter um transporte particular influenciou como em quem não foi para o segundo dia?

Analisando a partir de gráficos

Os valores aumentam consideravelmente.

Quantos que tinham carro(s) faltaram no ENEM2019 em algum dia? Como foi a distribuição?

Quantos que tinham moto(s) faltaram no ENEM2019 em algum dia? Como foi a distribuição?

Quantos que não tinham carro(s) e nem moto(s) faltaram no ENEM2019 em algum dia? Como foi a distribuição?

Conclusão

É considerável que, a medida que o candidato não tem transporte particular, a possibilidade dele não ir algum dos dias é maior daqueles que tem ao menos algum tipo de transporte particular, seja moto, seja carro. Esse índice pode demonstrar a impossibilidade de descolcamento com o transporte público, dito que nesses eventos o trânsito e a procura são maiores pela aglomeração, não sendo possível atender totalmente a população. De fato, é necessária uma melhora no transporte público.

Ter internet em casa influencia nas notas?


Para analisar essa situação, irei utilizar a variável Q025 do dataset:

Q025: Na sua residência tem acesso à Internet?

Criando um dicionário

Quantos candidatos do enem tinham internet?

Aproximadamente 77,56% dos candidatos do ENEM2019 tinham acesso a internet.

Há diferença significativa nas notas das áreas para quem tem internet e quem não tem? Testes estatísticos: ANOVA, TUKEY

Análise de variância é a técnica estatística que permite avaliar afirmações sobre as médias de populações. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.

Fonte: https://pt.wikipedia.org/wiki/An%C3%A1lise_de_vari%C3%A2ncia

Para essa ocasião, estarei criando um modelo de ANOVA para realizar o teste se há diferença significativa entre quem tem internet e quem não tem em sua residência. Para identificar, basta que o PR(>F) seja menor que 0,05 (nível de confiança para 95%) para contestar que há. (Hipótese Nula: Não há diferença significativa entre os grupos).

Matemática

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de matemática. (afirmando o argumento da seção acima)

Ciências da Natureza

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências da natureza. (afirmando o argumento da seção acima)

Linguagens e Códigos

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de linguagens e códigos. (afirmando o argumento da seção acima)

Ciências Humanas

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências humanas. (afirmando o argumento da seção acima)

Conclusão internet

Os gráficos acima demonstram a relativa diferença entre quem tem internet em casa em quem não tem internet na residência. O cunho de informações que a internet proporciona e as oportunidades levam os alunos a se desempenharem melhor, ao passo que a prova consiste em questões sociais onde, na internet, pela globalização são dispostas com facilidade.

Como a renda familiar pode gerar algum efeito nas notas?


A renda familiar pode ditar vários comportamentos de uma família. Irei analisar qual é o comportamento das rendas e qual é a sua relação com as notas.

A média de renda por município e a média de notas por município

Realizando a média de renda por município

Para essa situação, irei considerar uma renda fixa para cada situação. Na questão 6, as respostas são, por exemplo: de R1000,00aR1500,00. Para isso, realizarei a média entre esses dois valores, e irei considerar a média como resposta.

Distribuição de renda pelo país

Há uma nítida expressão de renda baixa nas regiões ao norte/nordeste do país. Reforçando os argumentos anteriores disponibilizados pelos gráficos e pelas conclusões aqui presentes, a região sul/sudeste é aquela que disponibiliza maior renda familiar, como também, de uma educação mais qualificada para o ENEM. Vamos comparar o mesmo gráfico, agora observando as médias das notas gerais do ENEM2019 para cada candidato.

Distribuição da média de notas pelo país

Há medias contém valores faltantes, irei filtrar apenas aquelas médias que obtém uma constante fixa.

Irei, agora, realizar uma média de nota para cada município

Observando o gráfico acima, é visível que há uma aparição maior de maiores médias na região Sul e Sudeste, reafirmando a situação anterior, onde há mais renda há um melhor desempenho no Enem.

Como as rendas influenciam diretamente nas notas?

Reorganizando a resposta, de forma a torná-la categórica

Quanto maior a renda do candidato, maior será seu desempenho. Esse argumento é nítido nos boxplots acima. Em quase todos os gráficos, o limite superior do gráfico de quem tem renda maior que 19.960 reais é o mesmo que o maior outlier de quem não tem nenhuma renda. Há de se observar o segundo quartil, ou a mediana, para cada nível de renda. De fato, há uma disparidade considerável e significativa em relação aos níveis.

Infelizmente, os gráficos demonstram a desigualdade social estruturada no próprio país, onde o acesso à informação e aos materiais é garantido àqueles que tem renda suficiente para suprir uma qualidade de ensino adequada e satisfatória.

Importante: A categoria 'De 8.982,01 até 9.980,00 reais' demonstra uma leve queda no desempenho em relação as outras categorias mais próximas.

Hipótese: há uma amostra pequena de candidatos nessa categoria

Há diferença significativa nas notas das áreas para cada renda? Testes estatísticos: ANOVA, TUKEY

Análise de variância é a técnica estatística que permite avaliar afirmações sobre as médias de populações. A análise visa, fundamentalmente, verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.

Fonte: https://pt.wikipedia.org/wiki/An%C3%A1lise_de_vari%C3%A2ncia

Para essa ocasião, estarei criando um modelo de ANOVA para realizar o teste se há diferença significativa entre as rendas. Para identificar, basta que o PR(>F) seja menor que 0,05 (nível de confiança para 95%) para contestar que há. (Hipótese Nula: Não há diferença significativa entre os grupos).

Irei utilizar as respostas pelas alternativas, a fim de tornar a visualização das tabelas mais clara. Portanto, estou deixando aqui o que significa cada resposta:

'A': 'Nenhuma renda.',
'B': 'Até R$ 998,00.',
'C' : 'De R$ 998,01 até R$ 1.497,00.',
'D' : 'De R$ 1.497,01 até R$ 1.996,00.',
'E' : 'De R$ 1.996,01 até R$ 2.495,00.',
'F': 'De R$ 2.495,01 até R$ 2.994,00.',
'G' :'De R$ 2.994,01 até R$ 3.992,00.',
'H' : 'De R$ 3.992,01 até R$ 4.990,00.',
'I' : 'De R$ 4.990,01 até R$ 5.988,00.',
'J' : 'De R$ 5.988,01 até R$ 6.986,00.',
'K' : 'De R$ 6.986,01 até R$ 7.984,00.',
'L' : 'De R$ 7.984,01 até R$ 8.982,00.',
'M' :'De R$ 8.982,01 até R$ 9.980,00.',
'N' : 'De R$ 9.980,01 até R$ 11.976,00.',
'O' : 'De R$ 11.976,01 até R$ 14.970,00.',
'P' : 'De R$ 14.970,01 até R$ 19.960,00.',
'Q' :'Mais de R$ 19.960,00.'

Matemática

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de matemática. (afirmando o argumento da seção acima)

Em alguns casos não há diferença sifnigicativa na nota de matemática. São as rendas: F e G, I e J, J e K, K e L, K e M, L e M, L e N, N e O, P e Q. Ao passo que as categorias vão aumentando, maior será a combinação entre elas. De fato, são muitas rendas que, se comparadas entre si, possuem uma diferença significativa. Entretanto, as aqui listadas não possuem nenhuma diferença significativa se comparadas entre si.

Ciências da Natureza

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências da natureza. (afirmando o argumento da seção acima)

Em alguns casos não há diferença sifnigicativa na nota de ciências da natureza. São as rendas: A e B, H e I, L e M, L e N, L e O, N e O, P e Q. Ao passo que as categorias vão aumentando, maior será a combinação entre elas. De fato, são muitas rendas que, se comparadas entre si, possuem uma diferença significativa. Entretanto, as aqui listadas não possuem nenhuma diferença significativa se comparadas entre si.

Linguagens e Códigos

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de linguagens e códigos. (afirmando o argumento da seção acima)

Em alguns casos não há diferença sifnigicativa na nota de linguagens e códigos. São as rendas: F e G, H e I, I e J, J e K, K e L, K e M, L e M, L e N, L e O, M e N, M e O, N e O, O e P, P e Q. Ao passo que as categorias vão aumentando, maior será a combinação entre elas. De fato, são muitas rendas que, se comparadas entre si, possuem uma diferença significativa. Entretanto, as aqui listadas não possuem nenhuma diferença significativa se comparadas entre si.

Ciências Humanas

Rejeitar a hipótese nula. O resultado demonstra que sim, há diferença significativa entre os grupos nas notas de ciências humanas. (afirmando o argumento da seção acima)

Em alguns casos não há diferença sifnigicativa na nota de ciências humanas. São as rendas: F e G, H e I, H e J, I e J, K e L, K e M, L e M, L e N, L e O, M e N, M e O, N e O, P e Q. Ao passo que as categorias vão aumentando, maior será a combinação entre elas. De fato, são muitas rendas que, se comparadas entre si, possuem uma diferença significativa. Entretanto, as aqui listadas não possuem nenhuma diferença significativa se comparadas entre si.

A distribuição de renda no ENEM 2019

Metade dos candidatos do ENEM2019 tinham renda familiar de até 1497 reais. Há de se esperar que as rendas não estariam normalmente distribuídas. Um vídeo que elucida bem essa situação é o O segredo da MERITOCRACIA (clique aqui para visualizar o vídeo) do Átila Iamarino (biólogo e pesquisador).

Apesar do desempenho melhorar conforme a renda cresce, a maioria dos candidatos possuem renda precária. Esse é um reflexo histórico, político e econômico do país brasileiro que: passou por crises econômicas, sofreu golpe militar, foi explorado e escravizado (gerando um preconceiro estrutural), entre outros, os quais refletem, intrinsecamente, nas questões sociais e educacionais do próprio país.

Tanto como há uma má distribuição de renda, o Brasil NÃO se dispõem de um ensino educacional público de qualidade, onde se encontram as pessoas de menor renda.

Adendo

Constatação da hipótese anterior: candidatos da renda sugerida ('De 8.982,01 até 9.980,00 reais') são os menos representados pelos candidatos.

Análise treineiros do ENEM 2019


Qual estado foi mais participativo em candidatos treineiros no ENEM 2019, ou seja, aquele que incentivou mais seus discentes?

Para constar se o aluno é treineiro ou não, basta encontrar a variável que indica por "IN_TREINEIRO" como verdadeiro, ou seja, em booleano igual a 1.

Percebe-se que, a partir do gráfico de barras é visível a maior participação de treineiros nos Estados de São Paulo e Minas Gerais. É possível relacionar com a população de cada estado, como também relaiconar com a maior presença de mães com pós-graduação nos mesmos estados, aos quais instigam seus filhos à se aventurarem no enem. Vamos analisar por categorias.

É possível analisar a proporção do sexo declarado para os treineiros com a coluna TP_SEXO

Pode-se concluir que, 62,9% dos treineiros são compostos pelo sexo feminino visível no gráfico a seguir.

Qual a escolaridade dos pais de quem é treineiro?

Concatenando as respostas

Distribuição de escolaridade do pai para candidatos treineiros

Distribuição de escolaridade da mãe para candidatos treineiros

Conclusão distribuição escolaridade

Por geral, os candidatos treineiros são pouco influenciados por pais que nunca estudaram ou que são ausentes (Resposta igual a Não sei). Entretanto, quando mais desenvolvida a escolaridade dos pais, seja até o ensino médio completo, a influência dos pais é maior.

Qual é a renda familiar de quem é treineiro?

Concatenando as respostas

Distribuição de renda familiar para treineiros

A maioria dos treineiros, possuem uma renda de até 998 reais seguido daqueles que estão entre 998 e 1497 reais. O enem disponibiliza a isenção de valor para candidatos com rendas inferiores, que estudam em escolas públicas ou que participam do Cadastro único para Programas Sociais do Governo Federal. O reflexo dessa política pode estar no incentivo desses treineiros com rendas mais precárias

Por que o Sul e o Sudeste se desempenharam melhor?


A maioria das análises compostas por aqui dispõem de resultados que demonstram as regiões Sul e Sudeste como as que obtiveram os melhores desempenhos. Agora, qual o motivo desses acontecimentos?

A priori, observe o mapa a seguir:

Observe o mapa acima para identificar as regiões brasileiras. Irei me referenciar sobre as regiões em amarelo e azul, ou seja, sudeste e sul do Brasil.

Separando os dados das regiões Sul e Sudeste

Questões sociais

Como visto nos relatórios de análises distruídas por todo esse projeto, é nítido que há diferenças significativas entre questões sociais sobre os candidatos que, intrinsecamente, inferem sobre suas notas e seu desempenho no ENEM. Cabe, então, analisar se essas mesmas estão interferindo a região Sul e Sudeste do país.

Raças

As diferentes cores de raças interferem de forma astronômica nas notas dos candidatos do ENEM 2019. A partir dos testes realizados aqui, foi possível concluir que há uma diferença significativa entre elas. Em todos os boxplots, a cor que se demonstrou disparada foi a Branca. Os motivos foram desenvolvidos e parcialmente explicados nas seções sobre as raças. É nítida a desigualdade social.

Diante disso, como as cores das raças estão distribuídas no sul e no sudeste?

Captamos um possível fator capaz de explicar o porquê do desempenho dessa região. A maioria dos candidatos eram Brancos que, por "consequência", tiveram um desempenho melhor.

Distribuição de renda

Ficou nítido o efeito que a renda familiar tem sob as notas do enem dos candidatos. Quanto maior a renda, maiores serão as notas dos candidatos. De fato, localizar onde as rendas tem seu maior nível pode ajudar a identificar mais um ponto sob a hipótese aqui deixada.

De acordo com o mapa deixado no início dessa seção, é possível visualizar com nitidez onde há uma maior renda familiar. A região em azul (onde o nuance tende ao Sul do País) reflete exatamente os pontos onde as regiões propostas se desempenharam melhor. Outro ponto a ser levado como argumento.

Acesso à internet

Ter acesso à internet tem um efeito positivo nas notas dos candidatos, onde as mesmas se elevam significamente. O mundo globalizado possibilita o acesso à informação de forma fácil e rápida, principalmente pelo atributo dessa parte: a internet. Garantir esse "corta caminho" de não precisar, necessariamente, de livros físicos, e sim ter a disponibilidade deles digitalmente, como também obter todo o suporte de portais educacionais e de estudos disponíveis na internet, leva o candidato a ter um desempenho melhor.

Avaliar a proporção de candidatos que tinham acesso a internet nessa região, ajuda a ressaltar mais um argumento.

A maioria esmagadora dos candidatos que viviam no Sul ou no Sudeste tinham acesso à internet. Outro ponto explicativo do porquê.

Escolha do inglês

Os candidatos que escolheram o inglês como língua estrangeira se desempenharam relativamente melhor daqueles que escolheram o espanhol. Os motivos pelos quais eu suponho são desenvolvidos na própria seção sobre esse tema. Quantos candidatos escolheram o inglês nessa região?

Apesar de aproximadamente dois quintos escolherem espanhol, três quintos escolheram o inglês como língua estrangeira no Sul ou no Sudeste. Mais um ponto a argumentar pelo desempenho.

IDH Para cada estado

Na seção onde avalio se há relação entre o IDH Municipal e o desempenho do aluno, é possível visualizar que há uma leve tendência de correlação entre as variáveis. Vamos observar como que o Índice de Desenvolvimento Humano está distribuído no País de acordo com os Estados.

Definindo a função para baixar arquivos

Gerando o mapa de IDH por Estado (Aguarde o mapa aparecer e mexa com o scroll do mouse)

Referência https://cidades.ibge.gov.br/brasil/sp/pesquisa/37/30255?tipo=cartograma

É nítido que as regiões Sul e Sudeste são as que concentram um IDH maior que o resto do País. Outro ponto a ser considerado como argumento.

Questões demográficas

População no ENEM 2019

Avaliar pela maioria também pode ser um fator a ser levantado. Irei visualizar quantos candidatos eram dessa região.

Questões históricas

Movimentos sociais

O movimento feminista, como desenvolido na hipótese da seção sobre a desigualdade de sexo entre os candidatos, pode ajudar no desempenho das mulheres na prova de linguagens. Essa área ocupa um comportamento linguístico social, onde o mesmo movimento de luta pela igualdade de gênero tem força. Sua força tem avançado por todo o país, possibilitando um melhor desempenho nessas questões sociais. Essas forças realizam manifestações em polos, populacionais aos quais o Sul e o Sudeste têm forças. Um ponto a ser levado em consideração.

Escolaridade dos pais

De fato, quanto mais desenvolvida a escolaridade dos pais, melhor será o desempenho de seus filhos. Esse argumento foi desenvolvido na seção "Como que a escolaridade dos pais influencia nas notas?". Analisar como estão distribuídas as maiores notas pela escolaridade dos pais é um meio útil de se avaliar essa região.

Dentre as maiores notas, quais foram as escolaridades dos pais dos candidatos que tiveram maior relevância? Essas escolaridades estão distribuídas como pelo país?

Mães

O quanto o Sul e o Sudeste representam das maiores categorias?

Pais

O quanto o Sul e o Sudeste representam das maiores categorias?

Mais da metade, na maioria dos casos, as mães e os pais se locaizam na região Sul/Sudeste. Outro argumento a ser considerado como resposta.

Machine Learning (ATENÇÃO: execute célula por célula!)


Para rodar os códigos, é necessária a instalação dos seguintes pacotes

ATENÇÃO: Possivelmente será necessária a reconexão com o colab para que os pacotes sejam rodados corretamente

Bibliotecas utilizadas (EXECUTE NOVAMENTE)

Bibliotecas

Carregando os dados

O que é o PyCaret?

PyCaret é uma biblioteca que possibilita o automachinelearning (AutoML), de código aberto, onde para desenvolver um modelo de aprendizagem de máquinas são necessárias poucas linhas de código. Sua capacidade é astronômica!

A documentação pode ser encontrada aqui: https://pycaret.org/

Modelo

Para realizar as predições, estarei utilizando modelos de Regressão, pelo fato de: irei utilizar as notas nas outras áreas, que assumem um valor numérico para prever um valor numérico. n

Como dito anteriormente, estarei separando apenas as notas, estarei eliminando os Missing Values para tornar o modelo mais coerente e saudável e também estarei analisando a correlação entre essas variáveis.

Plotando um gráfico para analisar a correlação de pearson

De fato, visivelmente a nota de Linguagens e Códigos é a que mais influencia a nota de Ciências Humanas. Qual é o comportamento dessas variáveis em um modelo de machine learning para prever a nota de Ciências Humanas?

Visualizando os dados

Execute a célula abaixo e aguarde o processo ser finalizado.

A declaração fold = 10 significa que as métricas estão sendo baseadas em dez camadas de cross-validation.

Fonte: https://ethen8181.github.io/machine-learning/model_selection/model_selection.html

O objetivo da validação cruzada é testar a capacidade do modelo de prever novos dados que não foram usados para estimá-los, a fim de sinalizar problemas como o excesso de adequação ou viés de seleção e dar uma visão de como o modelo se generalizará para um conjunto de dados independente (ou seja, um conjunto de dados desconhecido, por exemplo, a partir de um problema real). Referência: https://en.wikipedia.org/wiki/Cross-validation_(statistics)

As referências foram extraídas de um post no medium do Felipe Azank. Sigam ele clicando aqui: https://medium.com/@felipeazank

O post utilizado foi: https://medium.com/turing-talks/como-avaliar-seu-modelo-de-regress%C3%A3o-c2c8d73dab96

Como visto pela tabela acima, o modelo de Extreme Gradient Boosting gerou, pela maioria, os melhores resultados. Mas o que significa cada resultado?

MAE

O Erro Absoluto Médio (Mean Absolute Error) consiste na média das distâncias entre valores preditos e reais. Essa métrica não depende muito da variância dos dados.

MSE

Métrica mais utilizada, o Erro Quadrático Médio (Mean Squared Error) consiste na média do erro das previsões ao quadrado. Essa métrica é fortemente influenciada pela variância dos dados.

RMSE

Raiz do erro quadrático médio (RMSE), como o próprio nome diz, realiza a raiz quadrada da métrica anterior. Entretanto, essa medida, assim como o MSE, penaliza predições muito distantes da real.

R2

O valor do seu R-Quadrado varia de 0 a 1 e geralmente é representado em porcentagem. Um R² = 80% explica que 80% da variância de nossos dados podem ser explicados pelo modelo construído, enquanto os outros 20%, teoricamente, se tratariam de uma variância residual.

RMSLE Raiz do erro médio quadrático e logarítmico, essa métrica realiza um cálculo similar ao do RMSE.

MAPE Erro Percentual Absoluto Médio (MAPE), assume uma avaliação de, assim como o MSE e o MAE, quanto menor o valor, mais preciso seria o modelo de regressão. Obter um MAPE= 10% significa que, em média, nosso modelo faz previsões que erram por 10% do valor real.

Agora que cada métrica foi brevemente explicada, vamos observar o desempenho para cada uma delas nas 10 gerações e grupos de bateria de testes do modelo.

Intervalo de confiança para as métricas

As métricas acima foram retiradas do conjunto de treino. É possível realizar um intervalo de confiança em 95% para limitar um possível intervalo de correspondência ao valor real.

Os nossos modelos estão distribuídos dispersos da média em questão. A partir da média é possível avaliar o desvio padrão. Em poucas palavras, essa métrica avalia o quão distantes os dados estão dispersos da média (ele é a raiz quadrada da variância).

No gráfico acima é possível visualizar que, o valor da média menos um desvio padrão até o valor da média mais um desvio padrão ocupa 68% dos nossos dados. Nosso objetivo é ocupar um intervalo de 95%.

O que significa isso? Podemos simplicar dizendo que, se repitirmos nossos experimentos 100 vezes, 95 deles estarão dentro do intervalo predeterminado.

Coletando as médias e o desvio padrão.

Gerando o intervalo de confiança:

Conferindo com o treino se o intervalo corresponde:

De fato, todos as métricas estão dentro do intervalo de confiança.

Analisando o modelo

Como podemos interpretar as variáveis?

No gráfico a seguir, é possível visualizar que há uma coerência entre as cores. Como podemos interpretá-lo? Basta identificar onde há o 0 no gráfico. A direita desse zero, ressalta que quanto mais a direita mais influente será a variável. A esquerda desse zero, ressalta que quanto mais a esquerda menos influente será a variável. E com relação a cor, quanto mais rosa, maior será o valor correspondente.

Por exemplo, no caso, a nota em Linguagens e Códigos é a que mais influencia, e de forma proporcional. Quanto maior a nota em linguagens, maior será a nota em ciências humanas. O mesmo acontece com as outras, mas de forma menos influente (estão mais perto do zero).

Podemos visualizar a importância de cada variável de acordo com o seguinte gráfico:

Concluímos que, quanto maior a linguagens do candidato em Linguagens, maior será sua nota em Ciências Humanas. Esse efeito pode ser por causa das duas provas serem no mesmo dia, em que o candidado possa ter se preparado de forma mais sutil e delicada, não tendo uma referência de um dia de prova anterior.

Fonte: https://slideplayer.com.br/slide/9174515/27/images/9/Modelo+de+Regress%C3%A3o+Linear+Simples.jpg

Um modelo de regressão tenta ajudar uma linha de tendência nos valores para que seja o mais próximo possível do real. No gráfico da imagem acima, perceba que os pontos amarelos são os valores reais. A reta linear é uma reta que analisa a tendência e os possível valores mais próximos desses pontos dita uma inclinação. Os pontos dessa reta são os que o modelo irá prever de acordo com o valor em X. A distância entre o ponto real e a reta é chamada de Erro Aleatório, ou resíduos.

Como repassado na seção de métricas, o R quadrado é influenciado pelos resíduos, pelos valores previstos, entre outros. Quanto maior o R², melhor o modelo estará performando. Entretanto, é necessária a avaliação de outras métricas para que não haja um enviesamento em interpretar somente essa variável.

64,9% da variância de nossos dados podem ser explicados pelo modelo construído, enquanto os outros 35,1%, teoricamente, se tratariam de uma variância residual. (observando os dados de teste).

Para o gráfico a seguir, iremos analisar a variação dos resíduos e a distribuição deles. Para um modelo coerente, o ideal é que os modelos estejam normalmente distribuídos.

De fato o modelo atende a algumas características da regressão linear, onde estão variados e normalmente distribuídos (pelo gráfico de sino demonstrado na horizontal).

Os parâmetros do modelo utilizado

Conclusões sobre o modelo

De fato o nosso modelo pode explicar algumas coisas. Com ele podemos prever um valor em que, em média, pode estar apenas 7,65% distante do valor real.

Há de se considerar esse valor, em que o modelo possa explicar de forma razoável a nota de Ciências Humanas de um candidato. Seu objetivo é ficar nos 0%, mas seu cenário é utópico.

64,9% da variância de nossos dados podem ser explicados pelo modelo construído, assim possibilitando uma aproximação maior do real.

Em relação à todos os modelos testados, o nosso modelo gerou uma melhora em 64,94% na métrica MSE, em comparação com o modelo Lasso Least Angle Regression. É o melhor modelo que se desempenha em toda a bateria de testes.

Também podemos concluir que, a nota de Linguagens e Códigos dos candidatos influencia diretamente na nota de Ciências Humanas. Podemos concluir que, há uma correlação forte entre Linguagens e Humanas.

Validando e salvando nosso modelo para um possível deploy

Finalizando o modelo

Carregando o modelo para testes

Validando o modelo

Todas as métricas estão dentro dos intervalos determinados nesta seção.

Agradecimentos